#AI agent
AI Agent 企業級落地:主動演進,還是被動融入?
一、當“智能體”不再只是概念,企業為何仍在徘徊?2025年以來,AI Agent從技術圈的討論熱點迅速蔓延至企業戰略層。德勤在近期報告中指出,Agentic AI正在從“提效工具”向“決策核心”躍遷,企業面臨三大路徑選擇。然而,與輿論熱度形成反差的是,多數企業在實際落地中依然舉棋不定或舉步維艱:技術架構選型混亂、組織流程未做相應調整、投入產出難以量化。一個更本質的問題擺在面前:AI Agent究竟是一場技術升級,還是一次組織變革?如果答案是後者,那麼單純採購工具或搭建平台,很可能只是“新瓶裝舊酒”。二、從“人機協作”到“智能體協作”的結構性重構AI Agent在企業中的業務模式,並非簡單的“把流程自動化”,而是在認知層面實現了三重躍遷:從規則執行到意圖理解、從單點任務到多步推理、從被動響應到主動規劃。這意味著企業需要重新定義人與機器的分工邊界。例如,在客戶服務場景中,Agent不再只是回答預設問題,而是能根據上下文主動提出解決方案;在供應鏈管理中,Agent可以即時協調庫存、物流與需求預測,形成動態決策閉環。這種結構性重構要求企業將業務流拆解為“可Agent化”的原子單元,並建立資料中台與知識圖譜來支撐Agent的推理基礎。三、降本、增收與新商業生態的三重變現從AI Agent盈利模式來看,並非單一線性。首先,最直接的收益來自營運效率提升:通過替代重複性認知勞動(如報告撰寫、資料分析),企業可大幅削減人力成本,行業實踐顯示成熟場景可實現顯著成本最佳化。其次,Agent能通過精準推薦與即時最佳化創造增量收入,例如電商平台利用Agent進行動態定價與個性化行銷,轉化率提升顯著。更深遠的模式在於,企業可將Agent能力封裝為訂閱式服務或API介面,輸出給上下游合作夥伴,形成平台化收益。不過,盈利的可持續性取決於Agent的“可復用性”與“可擴展性”,這要求技術架構天然支援跨場景遷移。四、認知推理、自主規劃與系統協同的不可替代性與傳統RPA(機器人流程自動化)或決策樹相比,AI Agent的核心優勢體現在三個維度:一是認知推理能力,Agent不僅能執行指令,還能理解模糊意圖並分解任務;二是自主規劃能力,面對複雜問題可動態生成執行路徑,並在執行中根據反饋調整;三是系統協同能力,通過A2A協議實現跨Agent、跨系統的資訊交換與任務編排。亞馬遜AWS的實踐表明,企業級Agentic架構需要將推理引擎、記憶模組、工具呼叫與安全護欄四個核心模組解耦設計,才能兼顧靈活性與可控性。這種優勢使得Agent能夠處理那些“規則寫不清楚、但人可以憑經驗處理”的灰色地帶任務,從而真正替代部分腦力勞動。五、四大落地路徑的適用場景與取捨邏輯當前市場上,企業級AI Agent的建構大致可以歸納為四種主流形態:技術編排流、模型生態流、獨立極客流和業務底座流。技術編排流強調通過低程式碼平台(如LangChain)編排LLM與外部工具,適合快速原型驗證,但長期維護成本高;模型生態流依附於單一供應商(如OpenAI的GPTs),生態成熟但存在被鎖定的風險;獨立極客流追求完全自研Agent框架,技術壁壘高,僅適合AI能力強的企業;業務底座流則將Agent深度嵌入企業原有業務系統(如ERP、CRM),通過“場景驅動”逐步擴展,是當前大中型企業的主流選擇。比較而言,業務底座流在深度與靈活度之間取得了較好平衡,但其對組織資料的標準化要求極高,這恰恰是許多企業的短板。六、技術碎片化、組織壁壘與評估缺失的三重困境儘管前景誘人,AI Agent在真實環境中的落地仍面臨嚴峻挑戰。第一,技術碎片化:不同Agent框架之間缺乏統一介面,Google雖提出A2A協議,但產業落地仍需時間;同時,Agent的“幻覺”問題尚未根本解決,在高風險場景(如金融交易)中可能造成嚴重後果。第二,組織壁壘:Agent的跨部門協作需要打通資料孤島,這往往觸及既得利益與流程慣性,行業調研顯示,組織適配不力是企業落地失敗的首要原因,遠高於技術因素。第三,評估體系缺失:傳統KPI無法衡量Agent的“決策質量”或“自主程度”,企業難以判斷投入是否有效。德勤建議建構“Agent-ready”的內生能力,包括人才、流程與治理的同步轉型,但這需要管理層自上而下的決心。七、資料主權、倫理邊界與可解釋性的底線要求合規風險是AI Agent從試點走向規模化的“一票否決項”。首先,Agent在感知與推理過程中會大量接觸企業內部敏感資料(如客戶資訊、財務資料),一旦通過工具呼叫洩露至第三方模型,將觸犯資料安全法。其次,Agent的自主決策可能產生歧視性結果或意外行為,比如在招聘場景中因訓練資料偏差而拒絕特定背景的候選人,這不僅涉及倫理問題,還可能引發法律訴訟。此外,Agent的“黑箱”特性使得審計困難,金融、醫療等強監管行業要求決策可追溯、可解釋,而當前主流大模型尚難完全滿足。企業應在架構層面嵌入“安全護欄”,包括權限分層、資料脫敏、人工審批節點與行為日誌,同時為Agent設定明確的“決策紅線”,確保任何情況下人類都有最終干預權。八、從“能力孵化”到“生態融合”的演進路線展望未來,AI Agent在企業側的演進將遵循“試點→平台化→生態化”的三步曲線。短期(1-2年),企業應聚焦高價值、低風險的場景(如智能客服、知識管理),通過“人機協同”積累經驗;中期(3-5年),隨著A2A協議與安全標準成熟,Agent將從單點工具演化為企業級數字員工平台,支援跨系統編排與動態擴展;長期(5年以上),Agent將深度融入產業鏈,形成跨組織的智能協作網路,正如雲端運算重塑IT基礎設施一樣重構商業邏輯。對企業家而言,現在的關鍵可能已經不是追問“要不要用Agent”,而是思考“如何設計Agent的組織介面”:誰為Agent的結果負責?Agent與員工之間如何考核、問責、協作?這些組織適配問題,遠比技術選型更能決定成敗。建議企業設立“AI Agent治理委員會”,由業務、技術、法務代表共同制定使用手冊,並定期開展壓力測試,在可控範圍內加速探索。 (數字新財報)
永別了,終端!OpenAI瘋狂升級Codex,接管Mac人類全程0操作圍觀
OpenAI剛剛投下了一枚重磅炸彈:原本作為程式設計師「副駕駛」的Codex迎來史詩級更新,正式從程式碼工具進化為通用個人助理,奧特曼親自下場帶貨。開發者實測後驚呼:Codex接管整台Mac,人類全程0操作圍觀,太炸裂了!OpenAI重大更新!OpenAI的智能體Codex,這次直接硬剛Claude Cowork。Codex是OpenAI的旗艦程式碼生成模型,支援GitHub Copilot等產品,已成為全球開發者不可或缺的AI助手。這次的更新,非常重磅。YouTube創作者Mike Russell發佈了一條實測視訊,效果炸裂。他把自己的Mac完全交給了OpenAI最新升級的Codex,讓GPT-5.5操控Adobe Audition修複音頻、用Photoshop做封面、再用Adobe Firefly生成AI視訊。從頭到尾,人類全程零操作。這不是Demo,不是PPT,是一個真實創作者把自己的生產力工具鏈完整交給AI跑了一遍。OpenAI聯創、總裁Greg Brockman直接喊話:「Codex人人可用,電腦任務全可做!」是的,一個寫程式碼的工具,突然要搶所有人的鍵盤了。AI大V歸藏表示,一下午,一句話,Codex就幫自己開發了一個完整的遊戲。最讓人驚訝的是Codex處理素材的方式:他提供了一個包含上千張圖片的素材包,並未說明篩選方法。Codex卻自動將每個資料夾內的圖片整合成一張總覽圖,附帶檔案名稱。這樣一來,只看一張圖就能掌握全部素材風格,選中後再直接呼叫檔案即可。這個操作實在令人震驚,讓他直呼Codex太牛了!網友直呼,Codex終於迎來自己的「Claude Code高光時刻」——一個複雜的完整的Mac應用,整合了攝影機、麥克風、錄屏,它一次就搞定了。用過Codex的網友,根本停不下來!Codex變了:從程式碼助手到電腦管家總之,過去大家對Codex的認知很清晰——就是一個寫程式碼的工具。它能幫你補全函數、偵錯bug、生成指令碼,是程式設計師的副駕駛。這次升級直接把邊界炸開了。OpenAI官方公告裡最核心的一句話:Codex現在支援Slack整合和Google Workspace全家桶整合。翻譯成人話就是——它不光能寫程式碼,還能讀你的郵件、回你的Slack消息、操作你的Google Docs和Sheets。這句話,讓OpenAI的野心藏不住了:它不再把Codex定位為開發者工具,而是——通用電腦操控agent。就在昨天,Codex就忽然官宣了一大波更新。它能跨Slack、Gmail、Calendar自動總結變化、做資料分析、輔助決策。可以組織研究材料、製作電子表格和簡報。可析資料匯出、標記更改的內容,起草解讀報告。還能根據標準對比多個選擇、跟蹤權衡取捨。OpenAI聯創Greg Brockman,這位習慣了20年黑屏命令列終端、視程式碼如生命的頂級駭客,公開宣佈:我徹底愛上了Codex App,它已經取代了我用了20年的終端。開發者懂的都懂,這是什麼份量。如此強大的更新,讓奧特曼直接發帖直呼:「Codex正在經歷ChatGPT時刻!」繼昨天的這一大波更新之後,今天凌晨,OpenAI Codex核心成員Tibo在X上發帖稱「Feeling codexy today」,預示著Codex又將迎來史詩級更新。此帖一出,程式設計師圈瞬間沸騰了!果然,沒過多久,OpenAI又開始放出新的case了。使用Codex處理日常工作,從未如此輕鬆。你可以選擇你的角色,連接每天使用的應用,並嘗試推薦的提示詞。無論是調研與規劃,還是文件、簡報、電子表格等,Codex都能提供幫助。Codex會根據你的角色推薦有用的外掛,並指導你連接各種應用程式,比如SlackHQ、GoogleWorkspace、Microsoft365等等。它如同你的私人助理,可以彙總來自不同應用程式和文件的資料,規劃下一步,起草工作,組織研究,或建立項目計畫。你可以一目瞭然地看到正在發生的事情,包括任務進度、使用的檔案和工具以及接下來要做的事情。從草稿到成稿,你可以在Codex中隨著內容逐步成形進行審閱。打開檔案,提出修改意見,並在同一個對話線程中不斷最佳化和調整。開發者大V表示,Codex和Claude Code非常不一樣。如果限額即將結束,那就可以執行一個長時間任務,即使限額已經結束,Codex都會繼續執行這個任務,直到任務完成。這個帖子直接被奧特曼轉發。Tibo還表示,在良好的使用者體驗和最佳化利潤率之間,OpenAI選擇了前者。甚至,OpenAI專門放出一個官方部落格指南,介紹如何在日常工作中使用Codex。Claude Code頭號粉絲轉向Codex,奧特曼鼓掌就在Codex升級的同一天,另一場好戲開演了。在X上,有使用者說出自己的心聲:Claude Code生成質量在最近三周內明顯下滑了,精準率暴跌,因此她90%的時間都在用Codex,感覺非常滿意。奧特曼很快出現,以星戰梗回應道:「歡迎加入光明面!」果然,又有更多開發者站出來表示,真的不喜歡用Claude,因為它很笨拙,使用者介面也總是不對勁,bug也很多。這一次,開發者自己用腳投了票。Codex實測太瘋狂了!Codex App開發人員Andrew Ambrosino直言:「Codex 搞定一切!」這次更新,Codex為當前任務自動適配動態UI,體驗更佳:幻燈片和表格體驗更佳支援在瀏覽器、工件和程式碼中直接標註上手更簡單整體設計更簡潔性能全面提升在Codex應用內瀏覽器中還加入了裝置工具列,讓建構和測試響應式應用變得更加便捷——瀏覽器使用的速度(在主觀測試中約提升30%)。不過,「大家好才是真的好」,全網第一波實測已經來了。讓我們一睹為快吧!接管整台Mac,人類全場0操作圍觀Mike Russell的實測才是這次升級最直觀的證明。他給Codex下了三個任務:任務一:音訊修復。 一段錄音有明顯的背景噪聲和齒音問題。Codex自動打開Adobe Audition,識別噪聲特徵,應用降噪濾波,調整EQ參數,匯出成品。Russell事後回聽評價:「專業級修復,比我手動調得還乾淨。」任務二:播客封面設計。 Codex打開Photoshop,根據播客主題自動選擇配色方案、排版標題文字、調整圖層混合模式,輸出一張可以直接上傳的封面圖。任務三:AI視訊生成。 Codex呼叫Adobe Firefly,根據文字描述生成視訊素材片段,自動拼接、加轉場。三個任務,跨三個Adobe專業軟體,全自動完成。Russell在視訊裡反覆強調一個細節:他全程沒碰滑鼠,沒碰鍵盤,甚至沒有切換過窗口。Codex自己在作業系統層面完成了所有軟體間的切換和協調。「這不是AI在幫我工作,」Russell說,「這是AI在替我工作。」Codex這次升級打中的不是程式設計師,是所有依賴電腦工作的人。當AI能操控你的整台電腦,「會不會用軟體」這個技能本身就在貶值。當然,Russell的實測並非完美。Firefly生成的視訊素材有幾幀出現了明顯的畫面抖動,Codex沒有自動識別並修正。Photoshop封面的文字排版在第一次嘗試時出現了字型大小不一致的問題,Codex自己發現後做了第二次調整才過關。Russell的總結很實在:「它不是100分,大概85到90分。但問題是——達到這個水平它用了8分鐘,我自己做要2個小時。」85分乘以8分鐘,和100分乘以2小時。大多數場景下,前者贏。Codex幫你0成本無限次拍攝網友Matthew Berman直接介紹如何用Codex無限次的拍攝產品,一個網路連線就能轉化為完整的電商照片:以前: 一套電商產品圖要5,000 - 25,000美元,耗時4周。現在:輸入一個 URL,10 分鐘出片,成本為0。他把整套系統封裝成了 「品牌商拍工具包(Brand Shoot Kit)」。它如何把一個網頁連結變成一整套電商攝影庫?只需以下 7 個 Agent(智能體)技能:人類的鍵盤,終於要淘汰了?以往,全面用手動方式偵錯UI的方式,往往非常消耗心力。每次都要一點一點地檢查AI有沒有破壞其他不相關的部分,這種壓力是無聲的。但如果我們能把執行階段的UI行為測試也交給AI去做,那人類這邊的負擔就能得到合理減輕。現在,Codex終於帶來了希望!顯然,Codex,已經能用滑鼠逐一檢查UI介面或行為是否正常——整個過程完全自動化。網友感嘆:「這感覺就像是「人們一直期待AI能做到的事情」終於到來了。」「我感覺我們正在逐漸接近下一個重大轉變的臨界點。」在視訊最後,Russell說了這樣一句話:「當AI能操控你的整台電腦,會不會用軟體這個技能本身就在貶值。」這次,Codex打中的不是程式設計師,畢竟程式設計師早就習慣了AI寫程式碼。這次打中的是所有依賴電腦工作的人——做PPT的、寫郵件的、剪音訊的、修圖的、做報表的。以前的邏輯是,人學會用工具,工具放大人的能力。現在的邏輯開始變了:AI學會用工具,人只需要說清楚自己要什麼。可以說,Codex不是在升級功能,它是在重新定義「使用電腦」這件事本身。在Russell的45分鐘實測裡,那台Mac上發生的一切——滑鼠自己在動、軟體自己在切換、音訊自己在渲染——這個畫面大概會成為2026年最具象化的一幕。以前人類用滑鼠呼叫軟體,現在AI用API呼叫軟體。下一步呢?不可想像。 (新智元)
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」昨天(4月28日),輝達幹了一件大事——發佈了開源全模態模型 Nemotron 3 Nano Omni。這不是又一個「能聊天的AI」,而是一個能讓AI Agent同時「看、聽、說、做」的全能模型,官方稱推理效率最高提升9倍。為什麼這件事重要?因為之前的AI Agent就像一個只會打字的員工——能寫郵件、能查資料,但你看不了螢幕、聽不了會議、處理不了視訊。現在,AI Agent終於有了「眼睛、耳朵和嘴巴」,而且輝達把它開源了。✦🔬 前沿解讀:Nemotron 3 Nano Omni 到底是什麼?1. 一個模型搞定四種感官——不再「拼積木」傳統的多模態AI,說白了就是在「拼積木」:一個視覺模型負責看圖,一個語音模型負責聽聲音,一個文字模型負責理解文字,然後用膠水程式碼把它們粘在一起。Nemotron 3 Nano Omni 的做法完全不同——它用一個模型原生支援文字、圖像、音訊、視訊四種輸入,在同一個架構內完成理解與推理。打個比方:以前的多模態AI像一個翻譯團隊,英語翻譯、日語翻譯、法語翻譯各幹各的,需要一個人在中間協調;Nemotron 3 Nano Omni 像一個真正的多語言者,直接用一種思維理解所有語言。這意味著什麼?減少了跨模型呼叫的資訊損耗和延遲,Agent在複雜任務中的一致性和穩定性大幅提升。2. 300億參數隻啟動3億——MoE架構的「省錢魔法」Nemotron 3 Nano Omni 總參數量約300億(30B),但採用了混合專家(MoE)架構,推理時只啟動約**3億(3B)**參數。類比一下:這就像一個300人的顧問團,遇到不同問題只叫3個最擅長的人出來回答。你不用養300個人全天候待命,但每次都能得到專業答案。效果呢?推理效率最高提升9倍,視訊推理吞吐量比同類開源模型快9.2倍,同時大幅降低算力消耗。在6個主流基準測試(文件智能、視訊理解、音訊理解等)中拿下榜首。3. 誰在用它?富士康、甲骨文、帕蘭蒂爾已上車這不是畫餅。輝達公佈的首批使用者包括:富士康:用Nemotron做智能製造場景的Agent甲骨文(Oracle):企業級AI Agent部署帕蘭蒂爾(Palantir):資料分析與決策智能此外,Nemotron 3系列(Nano/Super/Ultra)過去一年累計下載量已突破5000萬次。輝達不是在做一個模型,而是在建一個Agent生態。✦🛠️ 實用性拆解:對「我」有什麼用?怎麼用?對普通開發者的價值場景1:智能客服升級——從文字客服到全管道客服以前的AI客服只能處理文字。有了全模態模型,使用者可以:發一張產品圖片,AI識別問題並給出方案語音描述故障,AI自動理解並轉工單上傳視訊演示Bug,AI直接定位問題環節場景2:內容理解——一鍵讀懂長視訊/多頁PDFNemotron 3 Nano Omni 支援百萬Token上下文,加上原生視訊/音訊理解能力:丟一個1小時的會議錄影,自動提取關鍵議題和決策丟一份100頁的掃描PDF,自動理解圖表和文字丟一個產品演示視訊,自動生成功能清單場景3:自動化辦公Agent——讓AI真正操作電腦結合Nemotron的介面操作能力,可以建構:自動讀取螢幕內容→理解介面→執行操作的Agent全高畫質螢幕錄影的即時解讀與數字環境互動怎麼用?3步上手Step 1:下載模型前往Hugging Face搜尋「Nemotron-3-Nano-Omni」,模型權重、訓練配方和資料集全部開源。也可以通過 build.nvidia.com 直接呼叫NIM微服務。Step 2:選擇部署方式本地部署:適合對資料隱私要求高的企業,單卡GPU即可運行(30B MoE只啟動3B)雲端呼叫:通過NVIDIA NIM微服務、OpenRouter或25+合作夥伴平台混合部署:Nemotron做本地感知,雲端大模型做深度推理Step 3:建構Agent應用Nemotron 3 Nano Omni 支援工具呼叫(Tool Use)和介面操作能力,可以:作為Agent的「感知層」,負責看/聽/讀把理解結果傳給更強的雲端模型做決策執行操作指令,形成感知→理解→決策→執行的閉環⚠️ 避坑指南別指望它替代GPT-5.5做深度推理:Nemotron定位是Agent的「感官大腦」,不是「思考大腦」。複雜推理任務仍需配合大模型硬體要求:雖然只啟動3B參數,但完整模型仍需30B的視訊記憶體。推薦使用A100/H100,消費級顯示卡可能捉襟見肘開源≠免費商用:注意查看輝達的開源協議條款,企業商用前確認授權範圍✦🌊 行業影響分析AI Agent賽道的分水嶺Nemotron 3 Nano Omni的發佈,釋放了一個明確訊號:大模型競爭正在從「誰的模型更聰明」轉向「誰的Agent更實用」。輝達不做最聰明的大模型——那是OpenAI和Anthropic的戰場。輝達做的是Agent的基礎設施:算力晶片→模型底座→部署工具→應用生態,一條龍通吃。這就像智慧型手機時代的晶片廠商:高通不造手機,但每一部Android手機都離不開驍龍。輝達不做ChatGPT,但未來每一個AI Agent可能都跑在Nemotron+NVidia GPU上。那些領域最先受益?企業客服/銷售:全管道AI Agent,7×24小時值守智能製造:富士康已在用,視覺質檢+語音互動+文件理解醫療健康:Eka Care(印度醫療科技公司)已接入,多模態病歷理解資料分析:帕蘭蒂爾模式,視訊/文件/資料多源融合分析普通人的機會如果你是開發者,現在就是上車AI Agent的最佳時機:模型開源免費,門檻降到最低全模態能力讓Agent的場景想像空間10倍放大輝達生態意味著大量企業需要懂Nemotron的人才✦💡 金句總結AI Agent的競賽,已經從「誰更聰明」變成了「誰更全能」。能看、能聽、能理解——這不是錦上添花,而是Agent從「聊天機器人」進化為「數字員工」的入場券。 (捭闔思享)
AI Coding 走到深處:金融開發中心為什麼必須走向“一崗一助手”
金融智能研發的下一步,不是給所有人一個統一聊天框,而是讓每個崗位都有自己的 AI 助手。萬能助手解決個人效率,一崗一助手解決金融級生產流程。金融研發不是一個動作,而是一條由崗位、流程、權限、知識和責任組成的長鏈條。一崗一助手,把 AI 從“黑盒聊天工具”變成了“可審計的生產節點”。萬能助手像一個人帶了一台“萬能破譯機”;一崗一助手像每個工位都配了一把“帶行車記錄儀的專用工具”。測試、交付、維運不智能化,AI Coding 只會把壓力往後傳。崗位智能體真正改變的,不是某個環節的效率,而是研發全鏈路的協同方式。未來金融開發中心,不只是人力組織,而是一套“人 + 智能體 + 知識資產 + 流程規則 + 責任邊界”共同運行的生產系統。01. 萬能助手為什麼不夠用金融機構做 AI Coding,為什麼一個統一 萬能的AI 助手不合適,它能問答,能寫程式碼,能解釋報錯,能生成單測,能總結文件,所有研發人員都可以用。這一步當然有價值。它能快速降低 AI 使用門檻,讓一線研發人員先感受到 AI 的能力,也能在很多零散場景裡帶來效率提升。但只要真正進入金融研發流程,就會發現一個萬能助手很快不夠用。因為金融研發不是一個單一動作,而是一條長鏈條。一個需求從業務想法到生產運行,至少要經過需求、設計、編碼、測試、交付、維運。每個環節的上下文不同、工具不同、權限不同、風險不同、責任也不同。產品經理關心業務目標和需求邊界。架構師關心系統邊界、介面關係和長期可維護性。開發人員關心程式碼實現、工程規範和單元測試。測試人員關心場景覆蓋和出口質量。交付人員關心版本完整性和投產風險。維運人員關心故障定位、告警降噪和生產穩定。這些崗位表面上都在“做軟體”,但實際面對的是完全不同的問題。一個萬能助手如果同時服務所有崗位,最後很容易變成“什麼都能答一點,但什麼都不夠深入”的通用問答工具。它適合個人提效,不適合進入金融級生產流程。所以,AI Coding 走到深處,金融開發中心需要的不是一個越來越大的萬能助手,而是一組越來越懂崗位、懂流程、懂責任的崗位智能體。02. 一崗一助手不是把 AI 拆複雜而是把 AI 放進真實生產關係為什麼要切這麼細?不是為了複雜,而是因為金融研發本來就是按崗位、流程、權限、責任和風險組織起來的。AI 要進入生產,也必須按同樣的方式被組織起來。從責任邊界看,需求是誰確認的,設計是誰稽核的,程式碼是誰採納的,測試是誰放行的,版本是誰交付的,故障是誰處置的,都必須清楚。一個萬能助手跨越多個崗位,很容易讓責任變模糊。崗位智能體對應崗位責任,需求助手就處理需求,設計助手就處理設計,編碼助手就處理編碼,交付和維運也各自有邊界。邊界清楚,責任才清楚;責任清楚,AI 才敢進入生產流程。從專業上下文看,不同崗位需要的知識完全不一樣。需求智能體需要業務規則、產品範本和需求用例。設計智能體需要應用架構、介面文件、表結構和歷史程式碼。編碼智能體需要工程規約、程式碼上下文和開發工具。測試智能體需要測試資產、測試資料和缺陷案例。交付智能體需要流水線、版本、環境和投產規則。維運智能體需要日誌、指標、鏈路和告警知識。上下文不一樣,智能體就不能混用。拿一個通用助手去服務所有崗位,就像拿一把瑞士軍刀去修飛機:能擰幾個螺絲,但不可能成為生產線上的專業工具。從工作流看,金融研發不是隨問隨答,而是流程驅動。需求輸出要進入設計,設計輸出要進入編碼,編碼輸出要進入測試,測試結果要進入交付,生產問題還要反哺維運和研發知識庫。崗位智能體不是孤立回答問題,而是流程節點上的執行者和連接器。從權限安全看,不同崗位能看什麼、能調什麼、能執行什麼,必須被嚴格劃開。需求智能體不能隨意呼叫生產日誌。編碼智能體不能越過程式碼門禁。交付智能體不能繞過投產審批。維運智能體不能在沒有授權和留痕的情況下執行生產動作。從效果評估看,萬能助手很難評價真實價值,但崗位智能體可以被量化。需求智能體看需求澄清效率和需求用例質量。設計智能體看設計採納率和設計缺陷檢出率。編碼智能體看程式碼採納率、AI 入庫率、單測覆蓋率。測試智能體看案例覆蓋率、缺陷發現率、測試結果精準率。交付智能體看風險提前識別率。維運智能體看故障定位精準率和平均處置時間。一崗一助手不是技術花樣,而是金融研發組織邏輯在 AI 時代的自然延伸。萬能助手像一把什麼都能碰一下的瑞士軍刀。一崗一助手更像流水線上的專用工裝,每個工位都為自己的任務、標準和責任而設計。03. 一崗一助手本質是在提高 AI 研發的確定性金融機構不能只追求 AI “會不會做”,更要追求 AI “能不能穩定地做、按規矩做、出了問題能不能說清楚”。通用大模型天然帶有隨機性。同一個問題,不同上下文、不同提示方式、不同模型版本,可能生成不同答案。對個人寫材料、寫程式碼初稿,這不一定是大問題;但對金融研發來說,這就是生產風險。金融軟體不是創意寫作,它有明確技術堆疊、架構邊界、介面規範、資料口徑、安全要求、測試標準和投產流程。AI 如果脫離這些約束自由發揮,越能生成,越可能帶來不可控。一崗一助手的價值,就是把大模型的通用能力壓進具體崗位的工作秩序裡。需求智能體通過業務規則、產品範本和驗收標準約束輸出。設計智能體通過應用架構、介面關係、表結構和歷史程式碼約束輸出。編碼智能體通過工程規約、程式碼上下文和安全規則約束輸出。測試智能體通過測試資產、缺陷案例和覆蓋標準約束輸出。交付智能體通過流水線、環境、版本和門禁規則約束輸出。維運智能體通過日誌、指標、鏈路和告警知識約束輸出。這樣,AI 就不是憑感覺回答問題,而是在崗位知識、崗位規約、崗位流程和崗位權限之內工作。萬能助手像一個聰明但不熟悉規矩的新員工,什麼都願意試;崗位智能體像一個被帶過、看過制度、知道邊界、懂審批流的熟練工。金融研發不怕 AI 聰明,怕的是 AI 聰明得沒有邊界,一崗一助手,就是給 AI 立邊界、裝規矩、接流程。萬能助手解決的是“個人能不能用 AI”。崗位智能體解決的是“組織能不能把 AI 放進生產流程”。04. 一崗一助手更符合金融行業的強審計要求金融行業做 AI,不只是看“能不能生成”,還要看“能不能審計”,強監管環境下,審計最關心的是這件事能不能被追溯:誰在什麼時間,基於什麼權限,呼叫了什麼能力,使用了那些資料,生成了什麼結果,誰稽核採納,最後流向那裡。萬能助手最大的問題,是邊界太寬。所有人都在同一個通用助手裡提問,輸入輸出混在一起,事後只能翻一堆聊天記錄,很難判斷某個結果到底屬於需求分析、設計判斷、編碼建議、測試結論,還是交付決策。某種意義上,萬能助手就像一個人帶了一台“萬能破譯機”:看起來什麼都能做,但誰用它做了什麼、基於什麼權限做、結果流向那裡,並不容易說清楚。一崗一助手更像每個工位都配了一把“帶行車記錄儀的專用工具”。需求智能體處理需求,設計智能體處理設計,編碼智能體處理程式碼,測試智能體處理覆蓋,交付智能體處理版本風險,維運智能體處理故障鏈路。每個智能體都對應一個崗位、一個流程節點、一類權限和一組輸出物。這就把 AI 從“黑盒聊天工具”,變成了一個個“可審計的生產節點”。它至少帶來四個變化。第一,責任主體更清楚。出了問題,可以沿著崗位鏈條追溯,而不是籠統地說“AI 生成的”。第二,日誌從聊天記錄變成生產記錄。一崗一助手留下的是任務編號、關聯需求、輸入文件、呼叫工具、生成結果、稽核記錄、流轉節點,更適合自動化審計。第三,合規護欄可以按崗位嵌入。測試智能體可以強制檢查測試資料脫敏,編碼智能體可以強制掃描硬編碼金鑰和開源漏洞,交付智能體可以強制校驗投產審批單和環境一致性,維運智能體可以強制記錄生產訪問授權和操作留痕。第四,異常監控更精準。當智能體按崗位拆分後,管理平台可以監控每個智能體的呼叫量、權限訪問、Token 消耗、失敗率、越權嘗試和異常行為。需求智能體不該頻繁訪問日誌。維運智能體不該在非窗口期呼叫生產工具。交付智能體不能繞過審批檢查。這些異常在萬能助手裡很容易被淹沒,在崗位智能體體系裡卻能更快被發現。所以,一崗一助手不是把 AI 做複雜,而是把 AI 放進可追溯、可治理、可問責的生產秩序裡。對金融機構來說,審計不是事後翻聊天記錄,而是從一開始就讓 AI 在正確的崗位邊界裡工作。05. 全球共識 Agent 必須進入工作流也必須被治理從公開實踐看,全球頭部金融機構正在形成共同方向:AI 研發不會停留在一個通用聊天框,而會進入崗位、流程和責任邊界。DBS 對 Agentic AI 治理的表述很有代表性。DBS 認為,真正的 AI 自主並不意味著沒有控制,而是需要更有策略的控制;其 AI 部署強調人類監督治理,包括升級路徑、審計軌跡和 fallback 機制,以確保決策可解釋、可問責並與意圖一致。DBS 還提出,企業在部署多個 agent 時,需要考慮 agentic control plane,對企業內所有 agent 進行監督。Citi 的做法更能說明責任邊界。公開報導顯示,Citi 正在向 4 萬名開發者推出 agentic AI,用 Devin 處理軟體補丁、升級等任務;其技術負責人明確表示,不允許 agent 部署程式碼,agent 只產出 artifacts,交給開發者,並經過自動測試和人工 review。Citi 還把內部軟體文件、最佳實踐和知識庫用於約束 agent 行為,不希望 agent “創造性地”引入新技術。Morgan Stanley Research 的判斷也很直接:當 AI coding assistants 和 agents 成為標準開發工作流後,傳統軟體工程師會更多轉向複雜應用,成為 curators、reviewers、integrators 和 problem-solvers,變得更戰略、更有價值;同時,AI 生成程式碼增多,也會把瓶頸推向程式碼審查、測試、安全、驗證和部署等後續環節。Bank of America 的公開材料也提到,其 AI 方法包括 human oversight、transparency 和 accountability for all outcomes;其軟體開發人員也在使用 GenAI 工具輔助程式碼編寫和最佳化,效率提升超過 20%。這些案例放在一起看,結論很清楚:金融機構不是不敢用 Agent,而是必須把 Agent 放進工作流、權限邊界、稽核機制和治理框架裡。這也是一崗一助手的核心邏輯。讓 AI 幹活可以,但不能讓 AI “無證駕駛”。金融研發裡的 Agent,不是無人駕駛汽車沖上高速,而是進了調度系統、裝了行車記錄儀、限定了路線、設定了剎車、有人遠端監管的專業車輛。06. 招行的啟示 從程式碼助手走向任務級研發智能體招行這條線,最值得看的不是“通用模型”,而是直接進入研發現場的 DevAgent。深圳市委金融辦發佈的招商銀行項目展示中提到,招行自研“研發智能體 DevAgent”,採用“感知—規劃—執行—反饋—進化”的多輪互動 ReAct 模式,可結合程式設計現場環境感知、企業研發知識檢索等工具,以開發者業務目標為驅動,提供任務級功能需求開發能力,並具備跨檔案、大片段程式碼生成能力。公開材料顯示,DevAgent 每月完成超過 4.8 萬個開發任務。這說明頭部銀行的 AI 研發已經不只是“問答 + 程式碼補全”,而是在把 AI 放進真實開發現場。它要理解當前工程環境,呼叫企業研發知識,拆解開發任務,並在多輪反饋中完成任務。DevAgent 的關鍵詞不是“通用”,而是“現場感知、知識檢索、任務級開發、跨檔案生成”。這恰好說明,金融研發 Agent 的方向不是萬能助手,而是懂崗位、懂工程、懂企業知識的專業智能體。一個真正能進入開發現場的 AI,不能只會說“我建議你這樣寫”;它還要知道這個工程在那裡、規範是什麼、改那些檔案、影響那些介面、怎麼跑檢查、最後誰來稽核。07. 工商銀行樣本 一崗一助手 更像金融級研發秩序重建在中國金融科技語境下,工商銀行的智能研發建設尤其值得關注。作為超大規模金融機構,工商銀行面對的是超大規模客戶、複雜系統體系、高安全合規要求和大規模研發組織協同。在這樣的背景下推進 AI Coding,難點不是接一個程式碼助手,而是如何讓 AI 進入真實研發流程,並且可控、可審計、可規模化。從前面整理的建設方案看,工商銀行智能研發不是只做程式碼補全,而是圍繞需求、設計、編碼、測試、交付、維運全流程,推進智能研發能力建設。這個路徑的核心,不是“AI 能不能寫程式碼”,而是“AI 能不能在金融級軟體工程體系中穩定工作”。一崗一助手在這樣的超大組織裡,價值更明顯。需求、設計、編碼、測試、交付、維運每個環節都有自己的責任邊界,每個崗位都有自己的知識資產,每個階段都有自己的輸入輸出。如果只有一個萬能助手,很難承接這種複雜度。只有把 AI 按崗位拆開、按流程接起來、按責任管住,才可能進入金融級研發體系。這也是大型金融機構做 AI Coding 最容易被低估的一點:不是模型接入了,智能研發就完成了。真正難的是讓模型進入秩序,讓生成進入流程,讓結果進入審計,讓責任有人承接。08. 需求原型智能體 讓產品經理從“寫需求” 走向“定義意圖”需求階段,是金融研發最容易出偏差的地方。業務說一個方向,產品理解一版,開發再轉譯一版,測試最後補缺口。等系統做出來,才發現最初的業務意圖沒有被精準表達。這種損耗,在大型金融機構裡非常常見,需求原型智能體要解決的是需求階段的“第一公里”。它不是簡單幫產品經理寫幾段需求,而是把自然語言、會議討論、業務說明、草圖、歷史範本和同類案例,轉化為更清晰的需求資產。對產品經理來說,最大的變化是:需求不再只是寫一份文件,而是要把業務意圖轉化為可以被設計、編碼、測試繼續使用的結構化資產。需求智能體可以輔助生成原型,讓業務、產品、設計和開發圍繞一個“看得見的東西”討論。過去大家對著一段文字爭半天,現在可以先看到互動雛形,再討論流程、權限和邊界。它也可以輔助生成需求用例,把使用者角色、業務流程、輸入輸出、異常情況、權限邊界、資料口徑和驗收標準補齊。這樣下游拿到的不是一句“我要一個功能”,而是一組更接近可執行的需求資產。對產品經理來說,這不是被 AI 替代,而是要求更高了,未來好的產品經理,不只是會寫需求的人,而是能把業務目標講清楚、把邊界定義清楚、把 AI 生成結果判斷清楚的人。產品經理過去像“翻譯”,把業務話翻譯成研發話。未來產品經理更像“導演”,要讓業務、AI、設計、開發、測試在同一個鏡頭裡對齊。09. 設計智能體 讓架構師從“補文件”走向“沉澱系統邊界”在金融研發裡,設計階段最容易被低估。很多系統不是新建系統,而是在複雜存量系統上不斷演進。裡面有歷史程式碼、舊介面、表結構、公共元件、上下游依賴、技術債和業務規則。如果設計階段沒有把這些內容理解清楚,後面 AI 生成程式碼越快,返工也可能越快。設計智能體的價值,是幫助架構師和開發骨幹理解存量系統,並生成更高品質的設計。它不能唯讀當前需求,還要理解應用架構、功能清單、介面文件、表結構、歷史程式碼、公共方法和已有設計文件。它要知道這個系統過去怎麼做,那些地方能復用,那些介面不能亂動,那些模組有歷史約束。對架構師來說,最大的變化是:設計不再只是寫給評審看的文件,而是要成為後續智能體能夠執行的結構化藍圖。過去設計文件主要給人看。未來高品質設計要同時給人看、給 AI 看、給測試看、給交付看。它要成為連接需求、編碼、測試和交付的中間資產,這會倒逼架構師的價值上移。未來優秀架構師,不只是懂系統的人,而是能把系統邊界、介面關係、工程規則和長期約束沉澱成 AI 可執行資產的人。過去架構師是“救火隊長”,那裡複雜去那裡。未來架構師更像“軌道設計師”,軌道鋪得越清楚,AI 這列高速列車才越不容易脫軌。10. 編碼智能體:讓開發人員從“敲程式碼”走向“帶 AI 幹活”編碼智能體是現在最容易被看見的崗位智能體,但真正成熟的編碼智能體,不只是“幫我寫一段程式碼”。它要能理解任務、讀取上下文、遵守規約、呼叫工具、生成程式碼、生成單測、執行自檢,並在發現問題後自動修復。一個典型過程是:開發人員給出任務目標,編碼智能體讀取需求規格、詳細設計、工程規約、程式碼上下文和歷史資產;然後拆解任務,判斷需要改那些檔案、呼叫那些公共方法、補那些單測;再生成程式碼、運行檢查、修復問題,最後把結果交給開發人員稽核。對開發人員來說,最大的變化是:過去大量時間花在寫範本程式碼、補欄位、查規範、寫單測、改小錯上;未來這些工作會更多由智能體承擔。開發人員要做的,是把任務講清楚,把設計看明白,把規約補完整,把生成結果審得住。這不是開發人員價值下降,而是開發人員價值重新定價。未來好的開發人員,不只是寫程式碼快的人,而是會拆任務、會用 AI、懂系統、能審查、能兜住複雜邏輯的人。以前開發人員像“親自下地幹活的人”。未來開發人員更像“帶一組 AI 工人的工長”。活可以讓 AI 干,但圖紙對不對、工序對不對、質量過不過關,最後還得人接得住。11. 測試智能體讓測試人員從“後面接鍋”走向“前面設防”如果只做編碼智能體,不做測試智能體,智能研發很容易出問題,AI 生成程式碼越多,測試壓力也越大。如果測試仍然靠人工補案例、人工構造資料、人工執行指令碼,AI Coding 只是把壓力從開發環節推到了測試環節。這就像高速入口拓寬了,但收費站還是老樣子,車流遲早會堵在後面。測試智能體的關鍵價值,是讓測試從“後置執行”轉向“同步設計、自動構造、結果分析”。它要能基於需求、設計和程式碼生成測試案例,覆蓋正常流程、異常流程、邊界場景、權限場景和資料口徑。它要能理解業務資料結構、欄位約束、帳戶狀態、交易狀態和資料依賴,輔助構造可用測試資料。它還要能生成測試指令碼,分析失敗原因,判斷是環境問題、資料問題、指令碼問題,還是程式碼缺陷。對測試人員來說,最大的變化是:不再只是反覆執行案例,而是要設計質量體系。未來好的測試人員,不只是找 bug 的人,而是能定義覆蓋標準、識別遺漏場景、審查 AI 測試結果、把住質量出口的人。過去測試像“最後一道安檢”。未來測試要更像“全流程雷達”。不是等飛機落地再看有沒有問題,而是在起飛前、飛行中、降落前都持續發現風險。12. 交付智能體讓交付人員從“臨門救火”走向“提前控險”金融研發的交付環節,有大量流程、檢查、配置、環境、依賴和審批,很多問題不是編碼時暴露,而是在持續整合、版本打包、環境部署、投產交接和上線驗證時暴露,過去這些環節高度依賴交付人員經驗,一旦資訊不完整,風險很容易到最後一刻才出現。交付智能體要解決的是研發到投產之間的“最後一公里”。它不是簡單幫人點流水線,而是要成為“AI 交付工程師”。在資源供給階段,它可以根據需求項、應用、交付日期和投產安排,輔助識別程式碼庫、分支、環境、流水線和發佈單元。在持續整合階段,它可以監控建構失敗、門禁異常、部署異常,分析原因並推薦修複方案。在版本交付階段,它可以生成版本交付報告,識別程式碼增量、配置變更、門禁異常、環境差異和潛在風險。在投產前,它可以圍繞部署複雜度、歷史故障率、環境差異度和依賴關係,給出風險提示和處置建議。對交付人員來說,最大的變化是:過去很多精力花在流程操作和事後協調,未來更重要的是提前識別風險、組織閉環處置、保障版本穩定。交付智能體的價值,不只是減少人工操作,而是讓風險提前暴露。過去交付像“臨門一腳”。未來交付更像“塔台調度”。每一架飛機能不能起飛,天氣、跑道、路線、機組狀態都要提前看清楚。13. 維運智能體讓維運人員從“告警疲勞”走向“故障推理”很多智能研發文章講到程式碼生成就結束了,但金融系統真正的考驗在生產運行,服務超時、CPU 沖高、資料庫異常、鏈路波動、日誌堆積、告警風暴,這些問題發生時,真正需要的是快速定位、精準判斷和穩定處置。維運智能體要做的,不是簡單回答“這個報錯是什麼意思”,而是模擬資深維運專家的分析過程。它要能讀取指標、日誌、鏈路、告警、變更記錄和歷史故障案例;要能形成診斷計畫;要能邊查邊調整;要能在多個可能原因中做排除;要能生成故障分析報告;還要能把這次處置經驗沉澱為後續可復用的維運知識。對維運人員來說,最大的變化是:不再只是被告警推著跑,而是要把故障模式、處置路徑和專家經驗沉澱成組織能力。一個老專家知道先看那條鏈路、那個指標、那個歷史問題,新人很難一下子掌握。維運智能體如果能把專家經驗變成標準化診斷技能,就可以縮短新人學習曲線,也可以提升常見故障定位效率。維運智能體成熟以後,研發閉環才真正完整。因為生產反饋可以反哺設計、編碼、測試和交付,形成持續改進。過去維運像“消防隊”。未來維運更像“城市神經系統”。不僅要救火,還要提前感知那裡升溫、那裡堵塞、那裡可能出事。14. 一崗一助手的關鍵不是各做各的而是上下游協同一崗一助手聽起來像每個崗位都有一個獨立 AI,但真正的價值不在“獨立”,而在“銜接”。需求智能體生成的需求用例,要能進入設計智能體。設計智能體生成的詳細設計,要能被編碼智能體讀取。編碼智能體生成的程式碼和單測,要能被測試智能體接住。測試智能體發現的問題,要能反饋給編碼智能體修復。交付智能體發現的版本風險,要能反饋給開發和測試。維運智能體發現的生產問題,要能沉澱為知識資產,反向最佳化設計、測試和交付。如果每個智能體只是孤立工作,智能研發仍然是碎片化的,只有當結構化資產在智能體之間持續流轉,金融研發才會從“人和人之間反覆傳話”,變成“資產和流程在系統中自動銜接”。未來研發流程裡最重要的資產,可能不再只是程式碼,而是需求規格、設計資產、測試資產、交付資產、維運知識和規約體系。這些資產如果能持續流轉,智能研發才會越來越強。一崗一助手不是把每個崗位都做成一個小煙囪。它要做的是把每個崗位變成一段標準化軌道,最後連成一條能跑起來的智能研發生產線。15. 開發中心以後不僅管人也要管 Agent一崗一助手帶來的變化,不只是崗位效率提升,也會改變開發中心的管理方式。過去管理研發,主要看人力投入、項目進度、缺陷數量、版本上線、生產問題。未來還要看智能體使用情況、任務閉環率、知識命中率、規約覆蓋率、AI 程式碼入庫率、測試自動生成率、交付風險提前發現率、故障定位精準率、反饋閉環率。過去主要管理人、項目和系統。未來還要管理智能體、知識資產、規約資產、模型能力、算力資源和人機協作流程。過去我們管人,管流程,管系統,未來還要管 Agent,不管 Agent,AI 就只是散落在個人電腦裡的效率工具,管住 Agent,AI 才可能成為金融級研發生產力的一部分。開發中心未來要多一張“智能體組織圖”:每個智能體負責什麼崗位,能呼叫什麼工具,能訪問什麼資料,輸出什麼資產,由誰稽核,進入那個流程。沒有這張圖,AI 越多越亂。有了這張圖,AI 才能從個人工具變成組織能力。16. 不是讓崗位消失是每個崗位都站到更高的位置一崗一助手,聽起來是 AI 工具的事情,做深了才知道是研發組織的事情。它不是給每個崗位配一個聊天窗口,而是把每個崗位的知識、流程、工具、責任和經驗重新整理一遍,讓 AI 真正進入崗位工作流。金融開發中心過去靠人傳經驗、靠文件傳流程、靠會議傳上下文。未來,這些經驗、流程和上下文,要逐步沉澱成智能體能理解、能呼叫、能執行、能反饋、也能被追溯和審計的生產資產。做到這一步,AI 才不只是“幫開發寫程式碼”,而是開始參與需求、設計、編碼、測試、交付、維運的完整鏈條。真正的一崗一助手,不是讓崗位消失,而是讓每個崗位都站到更高的位置。 (Space AIThinker)
【北京車展】2026北京車展:座艙AI進入決戰期,火山引擎給出新解法
什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?4月24日,2026 北京車展正式拉開大幕。經過多年新能源汽車賽道的飛速發展,整車外觀、三電動力、硬體配置的內卷早已漸漸降溫,智能座艙AI成為本屆車展最熱鬧、最核心的必爭賽道。曾有不少從業者向雷峰網坦言,“車展上,你到處可以見到各式各樣的‘龍蝦’。”以“龍蝦”為代表的新一代Agent開始進入車內,代表著AI從“功能控制”轉向“情感陪伴”與“主動服務”。熱鬧之餘,一個最樸素、最本質的問題一直擺在整個行業面前:什麼才是車企願意深度合作、使用者日常高頻使用的座艙AI?PART 1 座艙AI賽道的困局座艙AI並不是一個新概念,至少在大模型問世之前,座艙的互動感和體驗感還遠遠不夠。大模型到來後,讓座艙AI上了一個台階並走出兩條不同的發展路線:通用大模型跨界上車、部分車企自研模型。首先,通用大模型跨界玩家,底層AI功底十分紮實。依託海量網際網路資料訓練,它們在日常聊天、知識問答、長文字理解、多輪對話上能力出眾,雲端算力、語義理解基礎十分強大,能快速搭建起車機基礎語音互動,介面呼叫方便,上線速度快。但問題也很明顯:通用能力很強,可偏偏缺少汽車專屬的行業功底。這類模型日常處理網際網路資訊得心應手,訓練資料大多是百科、資訊、生活常識,對於汽車內部複雜的整車邏輯、細微的車控細節、車內專屬場景、行車過程中的各類專屬需求,瞭解得並不深入。很多用車裡的細碎需求就能直接暴露短板,比如大家日常高頻用到的空調出風口調節、出風角度、座椅精細調節、氛圍燈分區控制等等。使用者隨口說一句 “別讓空調風直吹臉”“只開腳部出風口,關掉側面風口”,很多通用大模型上車方案都沒法精準聽懂,更沒法精準控制硬體。而另一邊是車企自研座艙模型。車企深耕汽車行業多年,整車製造、底盤調校、車身底層權限、車輛全周期資料都是自家優勢,汽車內部所有硬體邏輯、車控協議、功能細節,所有關於車的“know how”,都是沉澱多年的經驗。但想要從零搭建頂級大模型底座難度極高、投入巨大、周期漫長,模型更新速度遠遠趕不上網際網路 AI 的迭代節奏。而且自研模型大多隻適配自家車型,體系相對封閉,想要拓展外部生態、跨車型通用適配,難度不小。簡單總結就是:通用大模型缺車載深度,車企自研缺AI底層上限。行業需要兼有頂級AI底座,又能吃透汽車場景、打通全域智能、能大規模裝車落地的第三條路線。PART 2 如何打造一個可用、好用的座艙AI?2023年左右,業界在探索大模型上車時,火山引擎做的最核心的一件事就是用function call去替換傳統的“意圖分域  + 多 Agent”的語音助手架構。火山引擎副總裁楊立偉火山引擎副總裁楊立偉表示,“在‘車’這麼一個封閉場景裡,有諸多的AI應用彼此獨立,沒有反思、沒有總結、任務不能連貫,手機端和車端不能互聯,是非常不好的體驗。AI,一定要是One Brain(一個大腦聯動整車)的AI。”當時,火山引擎的這一想法十分激進。很多同行直言,“讓一個模型去呼叫1000個外部工具基本做不到。”但這種死磕的做法,也讓火山積累了很多經驗。而第二件事則是,火山引擎開始引入環境變數,知道這些工具在不同的狀態下應該如何用。到了2024年,火山引擎做的主要工作是基於端狀態的車控。例如,窗戶有縫隙或者座椅加熱時,車內的溫度應該如何調整,這裡面就涉及到很多與車廠、車型配置的“know-how”。楊立偉表示,“想讓模型很好的使用所有原子能力,就要給模型比較清晰的定義,讓模型能真正理解它。識別訊號燈顏色、控制空調風速大小,這些能力都需要一起和車廠共同碰撞和共創。”基於海量真實車載場景資料、行車資料、車控指令、車內互動場景,火山引擎對模型做了專門的汽車專項訓練和端側輕量化最佳化。小到空調出風口風向、座椅細微調節、車內各類精細功能控制,大到行車場景、道路環境、駕乘習慣,全部做了深度適配打磨,具備了聯動智駕功能的能力,幫助駕駛Agent更好地理解使用者需求和環境變化。經過數年的打磨,4月24日,北京車展開幕首日,火山引擎發佈基於Agentic AI架構的新一代汽車AI解決方案,將對話推理引擎、目標驅動引擎、學習成長引擎三大引擎融入統一的“汽車大腦”,通過一個AI大腦深度聯動整車,打通車控、智駕、導航、座艙等關鍵功能域,實現“感知 - 推理 - 執行 - 記憶 - 學習”一體化閉環。我們可以設想一個場景:在傳統的座艙AI裡,我們說“後排的孩子是不是睡了”,車機助手會回答“睡了”,沒有後續動作,顯得非常機械。但是,在“基於目標的持續任務”能力加持下,火山引擎的座艙AI助手會做這麼幾件事:首先,AI助手會識別孩子的狀態,如果睡著了,會自主降低空調風速、關閉車窗、調節燈光並放低座椅角度,這就涉及到一些跨域打通的事情,真正像人一樣去做事,把複雜、多步驟、跨場景的事情從頭到尾幫你辦完。其次,如果孩子睡醒了哭鬧,AI助手會根據後排孩子的狀態,選用合適的方式進行陪伴:唱歌、放他最喜歡的動畫片、講故事、做遊戲,想媽媽了模仿媽媽的口吻安撫他。考慮到使用者駕駛狀態,火山引擎的座艙AI助手還會通過生成式UI渲染寶寶的可視化狀態,讓使用者一眼明白。最後,在學習成長引擎的支援下,AI助手會記住並且能在“哄娃”這一個任務執行的過程中沉澱經驗,形成可復用的技能。等到下一次出現“孩子睡覺”和“睡醒哭鬧”的場景時,還會持續記住並保持照顧寶寶的目標。在三大引擎的支撐下,火山引擎的座艙AI更像是一個有智商、有感情、有持續學習能力的“類人”體。值得注意的是,本次車展的“含蝦量”很高,各種座艙AI公司和晶片公司都推出自己的專屬龍蝦。在這股潮流下,火山引擎如何將AI能力輸送給行業?楊立偉表示,火山引擎將以Agentic AI技術為核心提供多元化的合作方案,主要包括AI座艙套件方案、豆包座艙助手方案兩大解決方案。前者可以根據車企需求靈活輸出能力:既可以輸出豆包大模型底層能力,也可以無縫對接整車功能呼叫與全品類知識,還可以輸出火山引擎的互動、工具、生態類的Agent。這就有點類似於樂高積木,大家可以根據需求搭建自己的智能體。後者則是完整的產品級交付,以統一的汽車“大腦”深入聯動整車能力,並與手機豆包APP互聯互通、能力共同進化,年內將有合作車型量產落地。在一些業內人士看來,火山引擎的兩種模式具備更大的“開放性”——頭部車企可以做深度聯合定製,打通全系統能力;中小車企可以輕量化快速接入,低成本完成智能化升級,無需複雜二次開發。楊立偉表示,“兩種方案聚焦做好產品體驗,暫不考慮商業模式與複製問題,而且還會投入高密度的人才持續打磨。”目前,100%主流車企都已攜手火山引擎佈局 AI 創新,能力不侷限於座艙,更是覆蓋座艙、智駕、整車研發、品牌行銷、使用者服務、企業數位化全流程,全方位幫車企做智能化升級。從資料來看,搭載豆包大模型的智能汽車已經突破 700 萬台,覆蓋超 50 個汽車品牌、145 款量產車型,豆包大模型智能車搭載量穩居行業第一,跨品牌適配能力經過大量市場驗證。更關鍵的是真的有人用、高頻在用,豆包大模型日均完成超3000萬次座艙互動和服務閉環。本屆車展期間,梅賽德斯-奔馳純電GLC、上汽奧迪E7X、上汽大眾 ID. ERA 9X、奇瑞星途EX7、一汽紅旗HS6 PHEV、別克至境E7、榮威家越等多款搭載豆包大模型的重磅新車亮相,帶來全新的智能體驗。PART 3 座艙AI行業終將回歸“實用”本質2026年,座艙AI將會是“去魅之年”,從演示泡沫走向實用落地。有調研顯示,智能座艙在購車決策中僅排第9位,這並不表示使用者不重視座艙,而是上一個時代的座艙不夠智能、不夠好用。但隨著汽車智能化程度越來越高,智能座艙的關注度持續升高。擺在我們眼前的一個現實問題:什麼才是車企和使用者真正想要的座艙AI?答案其實很簡單——座艙AI一定要是一個更聰明、更鮮活、更普適的“出行助手”。作為首次登陸北京車展整車館的獨立參展方,火山引擎從以往幕後技術賦能,走到台前完整展示全端能力。站在整個行業視角來看,本屆北京車展也是座艙AI賽道的分水嶺和新的起點。座艙AI終將不再是整車錦上添花的附加功能,慢慢變成汽車與生俱來的核心能力。回望智能汽車產業的迭代之路,從傳統燃油車的“三大件”到新能源時代的智能化升級,行業的核心競爭力早已完成迭代躍遷。如今,一個清晰的行業共識正在形成:智能車的“新三大件”,已然定格為寧德的電池、華為的智駕、火山引擎的智能座艙,三者共同構築起智能汽車的核心競爭力底座,形成了“能量供給-安全駕駛-智能互動”的閉環。未來,隨著“新三大件”成為行業標配,智能汽車將真正擺脫參數內卷,步入“體驗為王”的全新階段。直擊「2026北京車展」車展,是當下全球汽車工業最激烈的競速場。在這裡,不僅僅是新車的更迭,更是智駕晶片、液態電池、大模型上車等前沿技術的秀場。它是技術信徒的朝聖地,也是未來出行方式的預演地。2026北京車展,雷峰網《新智駕》將以專業的視角、及時的訊息,為你拆解每一次技術脈動。20+ 頂級車企動態(華為、小米、比亞迪、蔚來、小鵬、理想...),1個專題深度搞定。 (新智駕)
講真,DeepSeek V4+Claude Code 就是中國最強 Agent
DeepSeek V4(預覽版)終於在四月底來了!眾望所歸啊。去年 V3 發佈之後大家就開始猜 V4 什麼時候出。之所以周期這麼長,原因很簡單——換卡了,V4 的整個訓練框架都切到了昇騰。要知道,DeepSeek 的深度思考模式,絕對是當時的大模型第一梯隊,甚至是引領者。從 V3 到 V4,這一步真不容易(我接觸到不少小夥伴都不抱期待了)。不管怎麼說,總算是來了。不誘於譽,不恐於誹,率道而行,端然正己。V4 端上來了,V4.1 就快了,威武,哦不,V5 肯定要不了這麼久。注意,V4 這次是全量上線,不需要排隊等資格,直接改 API 裡的 model 參數就可以用。Pro 版改成 deepseek-v4-pro,flash 版改成 deepseek-v4-flash,deepseek-chat 和 deepseek-reasoner 到 7 月 24 號就棄用了。定價方面,pro 比較貴,但 flash 一如既往地親民。在沒有 Coding Plan 的情況下,pro 完成一次開發,價格能接受,但略貴。別的廢話我就不多說了,直接開測。咱就不去寫什麼 demo 了,直接把 DeepSeek V4 接入到 Claude Code 中讓他猛猛幹活。01、Claude Code + DeepSeek V4講真,Claude Code+DeepSeek V4 就是國產最強 Agent。切換模型很簡單,我自己寫了個工具 PaiSwitch,銷售點一點,Claude Code 的底層模型就切到了 DeepSeek V4 Pro。切換底層模型後,重新打開一個終端,輸入 /claude 啟動。可以用 /status 確認下配置是否生效。提示詞:派聰明的聊天入口 http://localhost:9527/#/chat 現在是單窗口模式,我想改成多窗口——能開新對話,舊對話直接歸檔。V4 上來先把整個項目的程式碼結構讀了一遍。讀完之後給了一個改造計畫。要新增那些結構、更新什麼類、重構那塊儲存、頁面佈局怎麼調,都列得明明白白。我全程盯著 token 消耗。讀了那麼多程式碼,加上輸出計畫的量,一塊多。然後開始幹活。V4 規劃了五個任務,先攻後端,再弄前端。後端改了 7 個檔案,前端 5 個,前後大概 15 分鐘。編譯直接過了,有錯誤自己也修了。然後我讓它自己用 CDP 連到 Chrome 跑測試。提示詞:你自己能否 cdp 我的 Chrome 測試一下:http://localhost:9527/#/chat點點按鈕,驗證功能。測出問題自己修。修完繼續測歸檔功能。最後我還讓它最佳化了一下佈局。從頭到尾,Pro 一共花了 10 塊左右。能接受。當然了,有一說一,前端審美這塊確實還比較糙。佈局能用但說不上優雅。功能方面是沒出一點問題。一個好的模型,配上 Claude Code 這種頂級 Harness 架構,能幹的事情就很多了。Claude Code之所以牛X,就是因為。它不只是把你的提示詞轉發給模型,還在中間加了任務拆解、檔案讀寫、終端操作、自動糾錯這些能力。所以同一個 Harness 換不同的底層模型,就能直觀地看出模型之間的差距在那。10 塊錢完成一個完整的功能開發,從程式碼到測試到修 bug,這個成本不算貴。但也不便宜,注意上圖中的小子,下半年卡升級後,pro的加個會大幅下調。很期待下一個版本。02、派聰明 RAG 接入 DeepSeek V4由於我們派聰明RAG做了模型管理。所以我第一時間,也是把 Pro 和 Flash 接上去體驗了一下。問了一模一樣的問題:「派聰明是什麼?」Flash 的回答是這樣的:派聰明是一個企業級的 RAG(檢索增強生成)知識庫項目,最初是技術派實戰項目中用於和 AI 大模型聊天對話的部分(不含檢索增強),後來獨立發展並沿用“派聰明”名稱,旨在延續正宗的皇家血脈。Pro 的回答是這樣的:派聰明是一個企業級 RAG(檢索增強生成)知識庫系統,基於企業文件實現精準的智能問答與知識管理。它最初是技術派實戰項目中的 AI 聊天模組(不含檢索增強),後獨立發展並沿用“派聰明”名稱,旨在延續項目的正統性。系統核心能力包括:文件自動解析與分塊、豆包 Embedding 向量化、關鍵詞與語義混合檢索、基於 DeepSeek 模型的生答、Self-RAG 自驗證機制、JWT+RBAC 多租戶權限隔離、SSE 流式推送等。通過全鏈路閉環,它有效解決知識分散與更新滯後問題,避免大模型“幻覺”,可應用於客服、培訓、合規審查等場景。派聰明完全開源(MIT 協議),教學託管在技術派平台,支援企業私有化部署與二次擴展。一個簡略,一個詳細。畢竟 Pro 啟動參數 49B,Flash 只有 13B,差了將近 4 倍。但重點不在誰答得長。RAG 場景裡,檢索質量才是天花板,模型能力決定的是在這個天花板下能發揮幾成。Flash 的回答雖然短,但核心資訊都抓到了——項目來源、名稱由來、定位。Pro 多出來的那些內容(Self-RAG、JWT+RBAC、SSE 流式推送),其實全都是從知識庫裡檢索出來的原始文件內容,它只是組織得更完整。換句話說,如果你的知識庫文件質量高、分塊合理,Flash 完全夠用。03、DeepSeek V4 值得聊的一點傳統 Transformer 的注意力機制,每個 token 要和前面所有 token 都算一遍相似度。上下文能從 10 萬拉到 100 萬,這是長上下文一直跑不起來的根本原因。DeepSeek 的解法是把注意力拆成兩種,交替堆疊起來用。第一種叫 CSA,全名 Compressed Sparse Attention,壓縮稀疏注意力。它的邏輯是先把每 4 個 token 的 KV 快取合併成一條摘要,然後用 Lightning Indexer 快速估算相關性,讓每個 query 只從這些摘要裡挑出最相關的 top-1024 個去算。DeepSeek V4 pro繪圖第二種叫 HCA,全名 Heavily Compressed Attention,重度壓縮注意力。每 128 個 token 才合併成一條,但不做稀疏選擇,所有壓縮後的摘要全部參與計算。HCA 的定位是維持全域視野,保證模型不會丟了對整段文字的把控。再加一個 128 token 的滑動窗口管局部依賴。也就是說,CSA 負責精細化檢索,HCA 負責全域審視,滑動窗口管好眼前。可以這樣理解這個設計:讀一本 1000 頁的書,傳統注意力是把每一頁和前面所有頁都對比一遍,翻到第 1000 頁的時候要同時記住前 999 頁的細節,腦容量直接爆炸。CSA 的做法是把每 4 頁貼一張便簽紙,唯寫摘要,然後看到某一頁時只去翻最相關的 1024 張便簽紙。HCA 的做法更絕——每 128 頁才貼一張便簽紙,但所有便簽紙都看一眼。再加上手裡的那一頁(滑動窗口),局部細節、中程邏輯、全域脈絡都有了,但腦容量得消耗只有原來的十分之一。04、DeepSeek 真的很克制最讓我意外的是 DeepSeek 官方這次的措辭。公告裡是這樣寫的:使用體驗優於 Sonnet 4.5,交付質量接近 Opus 4.6 非思考模式,但仍與 Opus 4.6 思考模式存在一定差距。沒有「吊打」,沒有「碾壓」,沒有「遙遙領先」。在充斥著「超越 GPT」「全球最強」「里程碑式突破」的當下,這種「我們確實還差一截」的表態真的很真誠。「不誘於譽,不恐於誹,率道而行,端然正己。」V4 不是一個完美的模型。就我自己的使用體感下來看,前端這塊的處理我認為還是有很大進步空間的。這種實心的線條來佈局,有點回到返璞歸真的。😄下一版不急,按你的節奏來。 (沉默王二)
筆記本“養蝦”,MTT AIBOOK夯爆了
當 AI Agent 從“聊天工具”進化為“數字員工”,在本地養一隻真正能自主幹活的“龍蝦”(OpenClaw),正成為眾多開發者與極客的新需求。然而,同樣的 OpenClaw 運行在不同的作業系統和硬體架構上,其表現出的形態與體驗截然不同。通過將摩爾線程MTT AIBOOK與MacBook、Windows PC的深度對比,我們可以清晰看到不同平台的設計哲學,以及它們在支撐 AI Agent 時的差異。安裝部署:繁瑣折騰vs 開箱即用對於AI Agent而言,環境部署往往是第一道門檻。在 MacBook 上搭建 OpenClaw 環境,主要依賴開發者熟悉的命令列工具。使用者需要依次配置 Git、Node.js,並運行官方指令碼。這套流程對資深開發者來說並不陌生,但需要投入一定的時間進行前置準備與版本維護。Windows PC 則為開發者提供了更豐富的選擇路徑——既可以選擇開啟 WSL2 部署 Ubuntu 子系統,也可以在原生環境中手動配置。這種高自由度帶來的代價是相對繁瑣的配置路徑,尤其是在處理子系統與宿主機之間的環境依賴時,往往需要較高的維護成本。相比之下,AIBOOK 採用的是“0幀起手”的開箱即用邏輯。最新的 MT AIOS 1.3.4 版本直接預裝了 OpenClaw,並與官方保持同步更新。系統內建了 12 款來自 ClawHub 官方技能社區的熱門實用 Skills,並預裝了 Qwen3-8B 本地模型。使用者無需介入任何環境配置,開機即可直接進入 AI Agent 的使用場景。系統生態:封閉圍欄vs自由生長決定一個AI Agent是“寵物”還是“員工”的關鍵,在於系統權限的開放度與呼叫硬體的自由度。macOS 以出色的隱私安全機制著稱,其嚴格的沙盒機制和 TCC 權限模型能最大程度保護使用者資料。但這種設計在面對需要 7×24 小時運行、需頻繁呼叫系統底層的 AI Agent 時,會產生不可避免的系統性摩擦。為了讓高級 Skill 正常工作,往往需要使用者手動授權,這種需“專人值守”的特性,使其更適合作為輕量級的日常輔助介面。Windows 的權限模型相對開放,但在運行 OpenClaw 時,主流的 WSL 子系統方案會引入額外的網路和檔案系統相容性開銷。當 Agent 需要呼叫宿主機的攝影機或麥克風時,仍需要進行額外的橋接配置,增加了跨環境通訊的複雜度。AIBOOK 搭載的 MT AIOS 基於 Linux 核心,天生契合開發與生產環境。其權限模型清晰直接、可程式設計,完美適應自動化服務的需求。在 AIBOOK 上,使用者可以通過自然語言直接觸發 Skills 的自動安裝。OpenClaw 能夠順暢地完成從環境檢測、依賴下載到模型配置的閉環,例如音視訊轉錄(FunASR)、語音合成(Kokoro)及視覺檢測(YOLO NPU/PaddleOCR)等能力,均可完全駐留在本地高效運行。算力底座:支撐思考與執行的硬實力本地化運行不僅需要權限,更需要紮實的算力支撐。MacBook 搭載的 M 系列晶片能效比優異(例如 M4 晶片提供約 38 TOPS 算力),能夠應對基礎的端側 AI 需求,但受限於統一記憶體和系統機制,大型模型的本地部署仍需手動適配。Windows PC 陣營擁有龐大的硬體跨度。輕薄本的整合顯示卡在處理複雜 AI 任務時稍顯吃力;而搭載頂級獨立顯示卡(如 RTX 4090)的工作站雖然能提供極高的算力,但往往伴隨著高昂的功耗與犧牲便攜性,更多屬於固定場所的“重型裝備”。AIBOOK 則在便攜與性能之間找到了專注 AI 場景的平衡點。其提供了 50 TOPS 的異構 AI 算力(CPU+GPU+NPU),不僅確保了預裝大模型的流暢運行,也為複雜的視覺檢測和語音互動提供了充足的算力冗餘,保障了低延遲與資料隱私。結語:給AI Agent一個原生的家不同的系統環境,承載著不同的計算使命。MacBook 是優秀的個人消費與創作終端,Windows 是全能的綜合性工作台。但如果您的核心訴求是擁有一位真正的“AI 員工”——要求它能看、能聽、會思考,能跨越應用獨立執行複雜任務,並且能在本地環境穩定、低延遲地長期運行,那麼 MTT AIBOOK 無疑提供了更純粹的土壤。不需要繁瑣的改裝與配置,AIBOOK 正以原生、開放、專屬的姿態,重塑 AI Agent 時代的個人電腦體驗。 (芯榜)
Anthropic Harness:AI Agent從“野馬”到“戰車”的工程哲學
Harness開始自主進化越來越薄薄成鎧甲。在AI從聊天機器人邁向真正自主Agent的當下,最棘手的不是模型本身有多聰明,而是如何讓它在漫長的任務中不跑偏、不崩潰、不半途而廢。2026年3月,Anthropic在其工程部落格上發表了一篇重量級文章《Harness design for long-running application development》,系統拆解了他們為Claude設計的“Harness”(馬具/韁繩)架構。這不是一次簡單的提示詞最佳化,而是對Agentic Coding(代理式編碼)底層工程的深刻反思——模型越強,Harness反而需要越精簡,但絕不能消失。什麼是Harness?為什麼它突然成了前沿關鍵詞?簡單來說,Harness就是包裹在LLM周圍的完整軟體基礎設施:它包括編排循環、工具呼叫、記憶管理、上下文壓縮、錯誤處理、守衛欄(guardrails)和多Agent協作機制。Anthropic把Claude Agent SDK本身就稱為“a powerful, general-purpose agent harness”。它不是給模型加一層prompt那麼簡單,而是把模型變成一個可控、可持久、可迭代的“系統”。上篇深度扒光Anthropic Claude Code 8大新功能+6級安全架構中,詳解了三層“Self-Healing Memory”自癒永久記憶架構和聲明式可組合權限。今天再看看Harness是怎麼做到的?早期Agent在長時任務中常遇兩大頑疾:上下文焦慮(context anxiety):模型在超長上下文裡突然“慌了”,開始胡亂結束任務或重複工作。漂移與崩潰:單Agent長時間運行後,規劃與執行混在一起,自我評估能力不足,導致輸出質量雪崩。Anthropic的解決方案不是一味堆模型參數,而是借鑑人類工程師和GAN(生成對抗網路)的思路,建構結構化的“環境”來引導模型行為。這就是Harness Engineering——一門新興的AI工程學科。從兩Agent到三Agent:演進路徑清晰可見Anthropic的Harness設計經歷了清晰的三階段演化:2025年11月:基礎版兩Agent Harness引入Initializer Agent(初始化器)負責一次性搭建項目環境、分解規格成JSON特徵列表、初始化git倉庫;Coding Agent(編碼器)則每次只推進一個特性,留下清晰artifact(產物)供下次接力。通過上下文重設和artifact手off,解決了多會話連續性問題。2026年Opus 4.5時期:三Agent GAN式架構(核心創新)針對前端設計和全端開發,升級為Planner(規劃器) + Generator(生成器) + Evaluator(評估器)。-- Generator專注創造程式碼或UI設計;-- Evaluator像對抗網路裡的判別器,提供批判性反饋(前端用審美+創意等多維度打分);--規劃與評估分離,避免Generator自我陶醉。實驗顯示,經過5-15輪迭代,生成的介面明顯更美觀、獨特,全端應用也更完整可靠。靈感直接來自GAN:生成器與評估器的對立統一,極大提升了模型的自洽能力。Opus 4.6及以後:精簡與去複雜化隨著模型自身長上下文理解、自我偵錯和規劃能力的躍升,許多腳手架可以移除。上下文重設不再必要,自動壓縮機制(Claude Agent SDK)足以處理增長;微觀詳細的sprint規劃反而成了累贅。Anthropic的結論耐人尋味:Harness必須隨模型能力動態演化,過度複雜的Harness反而會拖累新一代模型的表現。他們甚至公開對比了Harness版與單Agent版的成本、時長和質量,資料清晰表明:高品質輸出需要付出更多token和時間,但性價比在複雜項目中顯著更高。更進一步:Claude Managed Agents——把Harness變成產品幾乎與工程部落格同時,Anthropic推出了Claude Managed Agents,本質上是“元Harness”——一個託管服務,為企業提供開箱即用的Agent基礎設施,包括沙盒環境、持久會話、工具鏈和可擴展介面。它解耦了“大腦”(模型)和“手”(執行環境),讓開發者無需自己從零搭建複雜Harness,就能部署可靠的長時程Agent艦隊。這一步,直接把Harness Engineering從實驗室技巧推向了企業級生產力工具。科技評論:Harness是AI Agent時代的真正基礎設施Anthropic的這一系列工作,揭示了當前AI發展的一個核心悖論:模型能力越強,工程約束反而越重要。單純追求參數規模或上下文長度並不能解決自主性問題;真正決定上限的是“環境設計”——如何讓模型在不確定、長時間的任務中保持方向感、自我糾正能力和輸出一致性。優點顯而易見:顯著提升可靠性:多Agent分離職責,減少幻覺和漂移,尤其適合前端美學、全端開發這類主觀+客觀結合的任務。可演化性強:Harness隨模型迭代而簡化,避免了“框架鎖死”。安全與可控:內建沙盒、評估循環,天然契合Anthropic一貫的AI安全哲學。開源精神:相關quickstart和最佳實踐已在GitHub公開,社區已快速跟進復現。潛在挑戰也不能忽視:成本與複雜度:多輪迭代必然帶來更高token消耗,對中小團隊仍是門檻。演進速度過快:今天有效的Harness,明天模型升級後可能變成“死重”(dead weight)。開發者需要持續跟進Anthropic的工程部落格。標準化缺口:雖然Managed Agents在降低門檻,但整個行業仍缺乏統一Harness規範,碎片化風險猶存。從更廣視角看,Harness Engineering標誌著AI開發範式的轉變:從“提示工程”(Prompt Engineering)到“環境工程”(Environment/Harness Engineering)。未來,頂級AI工程師不再只是會寫prompt的人,而是擅長設計Agent“馬具”、建構反饋閉環、平衡模型自由度與系統約束的系統架構師。Anthropic再次用行動證明:在通往AGI的路上,安全、可靠、可解釋不是空洞口號,而是必須通過精密工程落地的硬實力。Claude的Harness不是給模型套上枷鎖,而是為它披上戰甲,讓它能在現實世界的長征中,穩穩地跑完全程。當其他實驗室還在比拚誰的模型上下文更長、誰的benchmark分數更高時,Anthropic已經把目光投向了“如何讓Agent真正可用”。Harness不是終點,而是AI Agent從實驗室玩具走向生產力的必經之橋。 (AI頓悟湧現時)